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(54) Title: PROCESS FOR THE CASCADE CODING AND DECODING OF AUDIO DATA 

(54) Bezeichnung: VERFAHREN ZUM KASKADIERTEN CODIEREN UND DECODIEREN VON AUDIODATEN 
(57) Abstract 

In a process for the cascade coding and decoding of audio data, the spectral components of the relevant short-time spectrum are 
formed for a data block with a given number of time input data, the coded signal is formed on the basis of the spectral components of said 
data block using a psycho-acoustic model of the bit distribution for the spectral components by quantifying and coding, whereupon time 
output data are obtained by decoding at the end of each codec stage. To prevent a deterioration in the sound quality in codec cascades with 
a plurality of stages, an identification signal is added to the coded signal at an initial stage to mark the start of the data block, whereby the 
subsequent codec stages undertake the classification of the data blocks to be coded on the basis of said identification signal. 

(57) Zusammenfassung 

Bei einem Verfahren zum kaskadierten Codieren und Decodieren von Audiodaten werden fur jeweils einen Datenblock mit einer 
bestimmten Zahl von zeitlichen Eingangsdaten die Spektralkomponenten des zu diesem Datenblock gehdrigen Kurzzeitspektrums gebildet 
das codierte Signal aufgrund der Spektralkomponenten fur diesen Datenblock unter Verwendung eines psychoakustischen Modells durch 
Steuerung der Bitaufteilung fur die Spektralkomponenten mittels Quantisierung und Codiening gebildet, woraufhin am Ende einer jeden 
Codecstufe zeitliche Ausgangsdaten durch Decodierung gewonnen werden. Zur Vermeidung einer verschlechterten Tonqualitat bei 
Codeckaskaden mit einer Mehrzahl von Stufen wird dem codierten Signal in einer anfanglichen Stufe eine Kennung zugefugt, welche den 
Beginn des Datenblocks darstellt, wobei die nachfolgenden Codecstufen die Einteilung der jeweils zu codierenden Datenblocke aufgrund 
dieser Kennung vornehmen. 
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Verfahren zum kaskadierten Codieren und 
Decodieren von Audiodaten 



B eschr e ibunq 

Die vorliegende Erfindung befaflt sich mit einem Verfahxen 
zum kaskadierten codieren und Decodieren von Audiodaten. 

Insbesondere befaflt sich die Erfindung mit einem Verfahren 
zum kaskadierten Codieren und Decodieren von Audiodaten zur 
Verbesserung der Tonqualitat eines aufgrund der Audiodaten 
erzeugten Tonsignales nach einer kaskadierten Audio-Codie- 
rung/ Decodierung . 

Bei dem kaskadierten Codieren und Decodieren von Daten 
werden innerhalb jeder Codecstufe der Kaskade fur jeweils 
einen Datenblock mit einer bestimmten Anzahl von zeitlichen 
Eingangsdaten die Spektralkomponenten des zu diesem Daten- 
block gehorigen Kurzzeitspektrums gebildet. Sodann wird ein 
codiertes Signal ausgehend von den Spektralkomponenten fur 
den jeweiligen Datenblock unter Verwendung eines psycho- 
akustischen Modells zur Steuerung der Bitauf teilung fur die 
Spektralkomponenten quantisiert und codiert, woraufhin 
innerhalb des Decoderteiles der Codecstufe zur Wiederge- 
winnung von zeitlichen Ausgangsdaten eine Decodierung vorge- 
nommen wird. 

Die Codierung von Tonsignalen mit moglichst geringen Quali- 
tatsverlusten hat in den letzten Jahren erhebliche Fort- 
schritte gemacht. Moderne Codierverf ahren nutzen dabei die 
Wahrnehmbarkeitsgrenze des menschlichen Ohres und versuchen, 
das bei der Codierung erzeugte Quant isierungsgerausch derart 
der jeweiligen Mithorschwelle anzupassen, dafl trotz erhebli- 
cher Datenreduktion keine horbare Verschlechterung entsteht. 
Die nach diesem Prinzip arbeitenden codierungs- und Decodie- 
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mngsvorrichtungen werden auch als "percept iual codecs" be- 
zeichnet. 

Derartige Verfahren eignen sich fur eine Vielzahl von Anwen- 
dungen. Man kann sie praktisch iiberall dort vorteilhaft ein- 
setzen, wo man Tonsignale von hoher Qualitat speichern Oder 
iibertragen will und die vorhandene Kapazitat, wie beispiels- 
weise das Speichervolumen Oder die Kanalbandbreite, mog- 
lichst effektiv nutzen mochte. 

Beispiel fur derartige Anwendungsf alle sind die Musikiiber- 
tragung iiber das ISDN-Telef onnetz , die Speicherung von 
Sprachansagen oder sogenannte "Jingles" in Flash ROM Spei- 
cherkarten, die Speicherung von Musik innerhalb von Musik- 
recordern mit einer sogenannten Mini-Disk oder das DCC-Ver- 
f ahren. 

Beispiele fur Codierverf ahren, die nach dem oben beschriebe- 
nem Prinzip arbeiten, sind die unter den Bezeichnungen AC-2 
und AC-3 der Firma Dolby Inc. eingesetzten Verfahren, das 
Verfahren ATRAC der Firma -Sony Corp. oder die Tonverf ahren 
nach den Normen ISO-MPEG (IS11172-3) , Layer-1-2-3. 

Alle diese Verfahren arbeiten blockorientiert , d.h. sie ana- 
lysieren jeweils eine gewisse Zahl von zeitlichen Eingangs- 
audiodaten bzw. Audioabtastwerten, also einen "Datenblock" , 
und bestimmen daraus die in den zu den jeweiligen Daten- 
blocken zugehorigen Kurzzeitspektren vorhandenen Spektral- 
komponenten. AnschlieBend erfolgt die Quantisierung und Co- 
dierung der Spektralkomponenten, wobei der Coder ein psycho- 
akustisches Modell verwendet, um das vorliegende Kurzzeit- 
spektrum zu analysieren und um daraus die Steuerung der Bit- 
aufteilung fiir die einzelnen Spektralkomponenten abzuleiten. 

Zusammenfassend kann man diese Methode auch "perceptual 
noise shaping" nennen: das beim Quantisierungsvorgang ent- 
standene Rauschen wird an die Mithorschwelle angepaBt, wobei 
der Coder versucht, einen Sicherheitsabstand ("noise-to- 
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mask-ratio", NMR) zu der geschatzten Horschwelle einzuhal- 
ten. 

Bei bekannten Verfahren zum Codieren und Decodieren von 
Audiodaten verschlechtert sich die Tonqualitat des ausgangs- 
seitigen Audiosignales mit zunehmender Anzahl von Codec- 
stufen. 

Der Erfindung liegt daher die Aufgabe zugrunde, ein Verfah- 
ren zum kaskadierten Codieren und Decodieren von Audiodaten 
zu schaffen, bei dem die Qualitat des ausgangsseitigen 
Audiosignales nur in einem geringen MaB in Abhangigkeit von 
der Zahl der Codestufen beeintrachtigt wird. 

Diese Aufgabe wird durch ein Verfahren gemaB Patentanspruch 
1 gelost. 

Der Erf indung liegen Untersuchungen an kaskadierten Audioco- 
decs zugrunde, welche auch als "Tandem Coding" bezeichnet 
werden, welche gezeigt haben f daB bei bisherigen Verfahren 
sich selbst bei ausschlieBlicher Verwendung digitaler PCM- 
Schnitts-tellen innerhalb der Codeckette die Tonqualitat in- 
folge der Kaskadierung nach jedem weiteren Codecschritt ver- 
schlechtert. 

Der Erfindung liegt die Erkenntnis zugrunde, daB die Ursa- 
chen ftir eine derartige Qualitatseinbufle in der bei den be- 
kannten Verfahren vollkommen asynchronen Blockbildung in je- 
der einzelnen Codecstufe bezogen auf die Lage des Blockes in 
vorhergehenden Codecstufen liegt. Mit anderen Worten werden 
bei bekannten Verfahren innerhalb jeder Codecstufe abhSngig 
von dem jeweiligen Einschaltzeitpunkt andere Satze von Ein- 
gangsdaten zu jeweils einem "Datenblock" zusammengef aBt. Da- 
mit bearbeitet bei bekannten Verfahren jeder Codec ein ande- 
res Kurzzeitspektrum und kommt damit zwangslaufig zu anderen 
B i tvert e i lungen . 

In einem anschaulichen Extremfall kann das z.B. zur Folge 
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haben, dafl in einer Codecstufe ein Vorecho korrekt von einem 
anschlieBenden Anschlag verdeckt wird, wahrend die nachfol- 
gende Codecstufe die Blockgrenze gerade zwischen das Vorecho 
und den Anschlag legt und damit die beiden Teilsignale ge- 
trennt analysiert und so zu einer vollstandig anderen Bit- 
verteilung konunen kann* 

Die Erfindung sieht daher vor, bei zumindest einem Schritt 
des Codierens innerhalb zumindest einer Codecstufe der Mehr- 
zahl von kaskadierten Codecstufen dem codierten Signal eine 
Kennung hinzuzuf iigen, die den Beginn eines Datenblocks dar- 
stellt, wobei bei dem Schritt des Codierens in wenigstens 
einer der in der Kaskade nachf olgenden Codecstufen die Ein- 
teilung der jeweils zu codierenden Datenblocke aufgrund die- 
ser Kennung vorgenommen wird. 

Die Erfindung schafft ein Verfahren zum kaskadierten 
Codieren und Decodieren von Audiodaten, bei dem 

in jeder einer Mehrzahl von Codestufen 

- fur einen Datenblock mit einer bestimmten Zahl von 
zeit lichen Eingangsdaten die Spektralkomponenten 
des zu diesem Datenblock ' gehorigen Kurzzeitspek- 
trums gebildet werden, 

ein codiertes Signal aufgrund der so gewonnenen 
Spektralkomponenten fiir diesen Datenblock unter 
Verwendung eines psychoakustischen Modells gebildet 
wird, und 

das codierte Signal zur Wiedergewinnung von zeitli- 
chen Ausgangsdaten decodiert wird, 

wobei bei dem Schritt des Codierens in einer der Codec- 
stufen dem codierten Signal eine Kennung hinzugefiigt 
wird, die den Beginn eines Datenblocks darstellt, und 
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bei den Schritt des Codierens in wenigstens einer der 
in der Kaskade nachf olgenden Codecstufen die Einteilung 
der Eingangsdaten in die jeweils zu codierenden 
Datenblocke aufgrund der Kennung vorgenommen wird. 

Im einfachsten Fall bezeichnet diese Kennung den Beginn 
eines Datenblocks, Soweit die Codecstufen der Kaskade homo- 
gen sind, also eine Blockbildung mit ubereinstimmenden 
BlockgroBen vornehmen, ermoglicht das Vorsehen der Trennung 
in dem codierten Tonsignal eine synchrone Blockbildung zu- 
mindest innerhalb der untereinander homogenen Codecstufen 
der Kette. Dies fiihrt dazu, daB die betreffenden nachf ol- 
genden Codecstufen mit gleicher DatenblockgroBe verglichen 
mit der Codecstufe f die die Kennung hinzufugte, eine ahnli- 
che Bewertung der Kurzzeitspektren vornehmen. Die so be- 
wirkte synchrone Blockbildung zumindest innerhalb der unter- 
einander homogenen Stufen der Codeckette fiihrt insbesondere 
bei Codecketten mit mehr als drei Kaskadenstuf en zu einer 
erheblichen Verbesserung der Tonqualitat, wobei eine Erho- 
hung der NMR-Werte von ungefahr 2 dB verglichen mit unsyn- 
chronisierten Codecketten ohne weiteres erreicht werden 
kann. 

Besondere Bedeutung kommt dem er f indungsgemaflen Verfahren in 
Anwendung auf das digitale Audiosignal insbesondere im Falle 
des verbreiteten Standards AES-3 zu* Dieser Standard wird 
gegenwartig im prof essionellen Studiobereich verwendet, fin- 
det sich jedoch in einer Variante des Standards (IEC 958) 
auch innerhalb von Endabnehmergeraten, wie beispielsweise 
CD-Spielern, DAT-Recordern , DCC-Recordern , MD-Recordern und 
sogenannten "digitalen Verstarkern" . 

Der Standard AES-3 ist blockorientiert aufgebaut. Jeweils 
192 Abtastwerte von zwei Audiokanalen werden zu einem Block 
zusammengef aBt , wobei ein Blockanfang im Datenstrom durch 
eine besondere PrSambel "Z" gekennzeichnet wird. Fur jeden 
Abtastwert werden 3 2 Bit bereitgestellt ; davon entf alien 4 
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Bit auf die Praambel, 4 Bit auf Hilfsdaten ("AUX"), 2 0 Bit 
auf den eigentlichen Abtastwert und 4 Bit auf zusatzliche 
Subcode-Daten ("V, U, C, P") . 

Zur Kennzeichnung des ersten Abtastwertes eines codierten 
"Datenblocks" gemaB dem erf indungsgemaBen Verfahren kommen 
verschiedene Mechanismen des AES- 3 -Standards in Betracht. 
Hierbei ist zu unterscheiden zwischen: 

a) Datenblocken, deren GroBe kein ganzzahliges Vielf aches 
der AES-3-BlockgroBe von jeweils 192 Abtastwerten dar- 
stellt. 

b) Datenblocken, deren GroBe ein ganzzahliges Vielf aches 
der AES-3-Blockgr6Be von 192 Abtastwerten darstellt. 

zu a) In dem erstgenannten Fall kann man die Blocks truktur 
des AES-Formates nicht vorteilhaft ausnutzen, Der 
erste Abtastwert eines codierten Datenblocks kann 
sich an einer beliebigen Stelle innerhalb eines AES- 
3 -Blocks befinden. 

GemaB der Erfindung findet in diesem Anwendungsf all 
die Kennzeichnung bei dem entsprechenden Abtastwert 
statt. Hierzu konnen die "user-data "-Bits verwendet 
werden, namlich im sogenannten time slot 29 das Bit 
"U" , welches beispielsweise auf "Eins" fiir den 
Blockbeginn und auf "Null" innerhalb des Blockes ge- 
setzt werden kann. Im sogenannten "Channel -Status" 
(time slot 30 "C") konnte diese Bedeutung des U-Da- 
tenkanals dxarch eine Erganzung in Byte 1, Bits 4 bis 
7 ("encoded user bits management") vermerkt werden, 

Der Vorteil dieser Losung liegt in einer Erweiterung 
des AES-3 -Standards, welche vollstandig kompatibel 
zu entstehenden Hardware-Losungen ist. Ahnliche L6- 
sungen kommen auch bei dem Standard IEC958 in Be- 
tracht * 
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GemaB der Erfindung konnen zusatzlich zu den grund- 
satz lichen Blockmarkierungen Zusatzkennungen einge- 
fiigt werden, welche die Arbeit des Codecs unter- 
sttitzen, wie beispielsweise in Formationen iiber die 
aktuell verwendete GroBe des codierten Datenblocks, 
die Art: der Codierung, usw. . 

zu b) In diesem Sonderfall kann gemaB der Erfindung die 
B locks truktur des AES-3 -Signals genutzt werden, um 
die codierten Datenblocke direkt im AES-3 -Raster un- 
terzubringen. In diesem Fall kann die Kennung auch 
durch die spezielle Praambel ("Z2") erfolgen, welche 
die jetzige Block-Praambel an den entsprechenden 
Stellen ersetzt. 
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Patentansprtlche 

1. Verfahren ziim kaskadierten Codieren und Decodieren von 
Audiodaten, bei dem 

in jeder einer Mehrzahl von Codecstufen 

ftir .einen Datenblock mit einer bestimmten Zahl von 
zeitlichen Eingangsdaten die Spektralkomponenten 
des zu diesem Datenblock gehorigen Kurzzeitspek- 
trums gebildet werden, 

ein codiertes Signal aufgrund der so gewonnenen 
Spektralkomponenten fur diesen Datenblock unter 
Vervendung eines psychoakustischen Modells gebildet 
wird, und 

- das codierte Signal zur Wiedergewinnung von zeitli- 
chen Ausgangsdaten decodiert wird, 

dadurch gekennzeichnet, 

daB bei dem Schritt des Codierens in einer der Codec- 
stufen dem codierten Signal eine Kennung hinzugefugt 
wird f die den Beginn eines Datenblocks darstellt, und 

daB bei dem Schritt des Codierens in wenigstens einer 
der in der Kaskade nachf olgenden Codecstufen die Ein- 
teilung der Eingangsdaten in die jeweils zu codierenden 
Datenblocke aufgrund der Kennung vorgenommen wird. 

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, 

daB die Kennung den ersten Abtastwert eines codierten 
Datenblocks angibt. 
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3. Verfaliren nach Anspruch 2, dadurch gekennzeichnet , 

daB zumindest in den zueinander homogenen codecstufen 
innerhalb einer Codeckette aufgrund der Kennung eine 
synchrone Blockbildung mit iibereinstimmender Blockgrofle 
bei jeweils miteinander iibereinstimmender Lage der Ein- 
teilung der Daten in Blocke vorgenommen wird. 

4. Verfahren nach einem der Anspriiche 1 bis 3, dadurch ge- 
kennzeichnet , 

daB das digitale Audiosignal gemaB dem Standard AES-3 
codiert wird. 

5. Verfaliren nach einem der Anspriiche 1 bis 3, dadurch ge- 
kennzeichnet , 

daB das digitale Audiosignal gem&B dem Standard IEC958 
codiert wird. 

6. Verfahren nach Anspruch 4 oder 5, dadurch gekennzeich- 
net, 

daB sich im Falle von DatenblScken , deren GroBe kein 
ganzzahliges Vielfaches der AES-3 -BlockgroBe darstellt, 
die Kennung zur Kennzeichnung des ersten Abtastwertes 
des codierten Datenblocks in dem "user-data"-Bit des 
betreffenden Blocks befindet. 

7. Verfahren nach Anspruch 4 oder 5, dadurch gekennzeich- 
net, 



WO 95/22858 



PCT/EP94/03478 



- 10 - 

daB bei Datenblocken, deren Grofle ein ganzzahliges 
Vielf aches der AES-3-Blockgr6Be darstellt, die Daten- 
blocke innerhalb des AES-3 -Rasters angeordnet werden, 
wobei die Kennung durch eine spezielle Praambel ("Z2") 
erf olgt. 
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